Bientôt des vidéos folles avec ChatGPT ?

Un nouveau modèle d'IA est annoncé par OpenAI. Il s'agit de Sora pour la génération de vidéos réalistes de jusqu'à une minute à partir d'instructions textuelles. " Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis du sujet et de l'arrière-plan. "

OpenAI souligne que Sora comprend ce qui est demandé dans un prompt, mais plus encore la manière dont les objets existent dans le monde physique. Les exemples publiés sont bluffants, voire effrayants de réalisme, diront certains.

En plus de pouvoir générer une vidéo uniquement à partir d'instructions textuelles, Sora peut aussi générer une vidéo à partir d'une image fixe existante, compléter une vidéo existante avec des images manquantes ou l'allonger.

Patience pour le moment

Sora est un modèle de diffusion qui s'appuie sur les recherches précédemment menées avec les modèles DALL-E (génération d'images) et GPT (grand modèle de langage) exploités dans le chatbot et interface d'IA générative ChatGPT.

Pour autant, l'heure n'est pas encore venue de déployer Sora avec ChatGPT (ou ChatGPT Plus). Sora fait d'abord l'objet d'une évaluation auprès de " red teamers. " Ce groupe d'experts va se pencher sur les risques avec une telle technologie.

Dans un autre registre, un accès est proposé à des artistes, designers et cinéastes, afin de recueillir leurs commentaires sur la manière de faire évoluer le modèle et son utilité. Sinon… le patron d'OpenAI Sam Altman est disposé à tester des prompts pour Sora qui lui seront soumis via le réseau social X.

Un pas important vers l'IA générale

Actuellement, OpenAI précise que Sora présente des faiblesses. " Le modèle peut avoir du mal à simuler avec précision la physique d'une scène complexe et ne pas comprendre des cas spécifiques de cause à effet. "

" Une personne peut mordre dans un cookie, mais par la suite, le cookie peut ne pas avoir de marque de morsure ", cite à titre d'exemple OpenAI. Sora a également quelques difficultés à faire la distinction entre la gauche et la droite dans un prompt.

OpenAI dévoile Sora peu de temps après la présentation par Google de son outil d'IA Lumière (modèle de diffusion Space-Time-U-Net) pour la génération de vidéos réalistes de 5 secondes (vidéo ci-dessus). Pour OpenAI, " Sora sert de base à des modèles capables de comprendre et de simuler le monde réel. " Cette capacité est mise en avant pour tendre vers une intelligence artificielle générale.

Source
Catégorie article Technologies